在视频动作识别中,变压器始终如一地达到最先进的准确性。但是,许多模型对于具有有限硬件资源的平均研究人员来说太大了。在这项工作中,我们探讨了轻量级动作识别的视频变压器的局限性。我们通过3个大规模数据集和10个硬件设备基准测试13个视频变压器和基线。我们的研究是第一个评估了在多个设备上深入了解动作识别模型的效率,并在相同的条件下培训各种视频变压器。我们将当前方法分类为三个类,并显示增强卷积骨架的复合变压器在轻量级动作识别中,尽管缺乏准确性。同时,仅关注模型需要更多的运动建模功能,独立的注意力块模型目前产生的延迟太多。我们的实验得出结论,目前的视频变压器尚未与传统卷积基线的轻量级动作识别,并且先前提到的缺点需要解决,以弥合这种差距。重现我们的实验的代码将公开可用。
translated by 谷歌翻译